从语义视觉知识中生成图像是一项具有挑战性的任务,与诸如类标签或文本描述之类的替代方案相比,以复杂,微妙和明确的方式调节合成过程很有用。尽管存在以语义表示为条件的生成方法,但除了对对象之间的约束规范外,它们没有提供控制生成过程的方法。例如,迭代生成或修改图像通过手动添加特定项目的可能性是所需的属性,据我们所知,文献尚未在文献中得到充分研究。在这项工作中,我们提出了一种基于变压器的方法,该方法以场景图为条件,相反,该方法针对最近的基于变压器的方法,还采用解码器来自动构成图像,从而使合成过程更有效和可控。提出的体系结构由三个模块组成:1)图形卷积网络,以编码输入图的关系; 2)编码器码头变压器,可自动加入构成输出图像; 3)一种自动编码器,用于生成用作变压器每个生成步骤的输入/输出的表示。在CIFAR10和MNIST图像上获得的结果表明,我们的模型能够满足由场景图定义的语义约束,并通过考虑到所需目标的用户提供的部分渲染,以模拟场景中的视觉对象之间的关系。
translated by 谷歌翻译